QuantDTypeCast

逐元素执行量化与反量化的数据类型转换操作,用于在浮点数与整型量化表示之间进行转换。

  • Quantize:将 fp32/fp16 数据量化为 int8

  • Dequantize:将 int8 数据反量化为 fp32/fp16

\[\text{Quantize:}\quad q_i = \operatorname{clip}\Bigl(\operatorname{round}\bigl(\frac{x_i}{\text{scale}} + \text{zp}\bigr),\ q_{\min},\ q_{\max}\Bigr)\]
\[\text{Dequantize:}\quad x_i = (q_i - \text{zp}) \times \text{scale}\]

其中:

  • \(x_i\) 为输入浮点值

  • \(q_i\) 为量化后的整型值

  • \(\text{scale}\) 为量化比例因子

  • \(\text{zp}\) 为零点(zero point)

  • \(q_{\min}, q_{\max}\) 为量化数据类型的取值范围(int8 对应 -128 到 127)

输入:
  • input - 输入数据地址。

  • scale - 量化或反量化所使用的比例因子。

  • zp - 零点(zero point)。

  • length - 输入数据的元素个数。

  • core_mask - 核掩码。

输出:
  • output - 输出数据地址,其大小与 input 相同。

支持平台:

FT78NE MT7004

备注

  • FT78NE 支持的数据类型:
    • Quantize:fp32 → int8

    • Dequantize:int8 → fp32

  • MT7004 支持的数据类型:
    • Quantize:fp32/fp16 → int8

    • Dequantize:int8 → fp32/fp16

  • 当输入值为 +∞-∞ 时,Quantize 结果分别饱和到 q_maxq_min

共享存储版本:

void fp_to_i8_quant_s(float *input, int8_t *output, float scale, int zp, int length, int core_mask)
void i8_to_fp_dequant_s(int8_t *input, float *output, float scale, int zp, int length, int core_mask)
void hp_to_i8_quant_s(half *input, int8_t *output, half scale, int zp, int length, int core_mask)
void i8_to_hp_dequant_s(int8_t *input, half *output, half scale, int zp, int length, int core_mask)

C调用示例:

 1// FT78NE 多核示例(Quantize)
 2#include <stdio.h>
 3#include <quant_dtype_cast.h>
 4
 5int main(int argc, char* argv[]) {
 6    float  *input  = (float *)0xA0000000;   // input 在 DDR 空间
 7    int8_t *output = (int8_t *)0xB0000000;  // output 在 DDR 空间
 8
 9    float scale = 0.05f;
10    int zp = 0;
11    int length = 4096;
12    int core_mask = 0xff;
13
14    fp_to_i8_quant_s(input, output, scale, zp, length, core_mask);
15    return 0;
16}

私有存储版本:

void fp_to_i8_quant_p(float *input, int8_t *output, float scale, int zp, int length)
void i8_to_fp_dequant_p(int8_t *input, float *output, float scale, int zp, int length)
void hp_to_i8_quant_p(half *input, int8_t *output, half scale, int zp, int length)
void i8_to_hp_dequant_p(int8_t *input, half *output, half scale, int zp, int length)

C调用示例:

 1// MT7004 单核示例(Dequantize)
 2#include <stdio.h>
 3#include <quant_dtype_cast.h>
 4
 5int main(int argc, char* argv[]) {
 6    int8_t *input  = (int8_t *)0x10000000;   // input 在 L2 空间
 7    float  *output = (float *)0x11000000;   // output 在 L2 空间
 8
 9    float scale = 0.05f;
10    int zp = 0;
11    int length = 1024;
12
13    i8_to_fp_dequant_p(input, output, scale, zp, length);
14    return 0;
15}